Các khái niệm cơ bản Biểu_thức_chính_quy

Biểu thức chính quy, thường được gọi là mẫu, là biểu thức được sử dụng để chỉ định một chuỗi các chuỗi cần thiết cho một mục đích cụ thể. Một cách đơn giản để xác định một bộ chuỗi hữu hạn là liệt kê các thành phần hoặc thành viên của nó. Tuy nhiên, thường có nhiều cách ngắn gọn hơn để chỉ định bộ chuỗi mong muốn.

Ví dụ: tập hợp chứa ba chuỗi "Handel", "Händel" và "Haendel" có thể được chỉ định bởi mẫu H(ä|ae?)ndel; chúng tôi nói rằng mô hình này phù hợp với từng trong ba chuỗi. Trong hầu hết các chuỗi, nếu tồn tại ít nhất một biểu thức chính quy khớp với một tập hợp cụ thể thì sẽ tồn tại vô số các biểu thức chính quy khác cũng khớp với nó. Biểu thức chính quy không phải là duy nhất. Hầu hết các hình thức cung cấp các hoạt động sau đây để xây dựng các biểu thức thông thường.

Hoặc "or"Một thanh dọc ngăn cách các lựa chọn thay thế. Ví dụ: gray|grey có thể khớp với "gray" hoặc "grey".Phân nhómDấu ngoặc đơn được sử dụng để xác định phạm vi và mức độ ưu tiên của các toán tử (trong số các cách sử dụng khác). Ví dụ: gray|grey và gr(a|e)y là các mẫu tương đương, cả hai đều mô tả tập hợp "gray" or "grey".Định lượngBộ định lượng sau mã thông báo (chẳng hạn như ký tự) hoặc nhóm chỉ định tần suất mà phần tử trước được phép xảy ra. Các định lượng phổ biến nhất là dấu hỏi?, Dấu hoa thị * và dấu cộng +.
?Dấu hỏi chỉ ra không hoặc một lần xuất hiện của phần tử trước. Ví dụ: colou?r khớp với cả "color" and "colour".
*Dấu hoa thị cho biết không có hoặc nhiều lần xuất hiện của phần tử trước. Ví dụ: ab * c khớp với "ac", "abc", "abbc", "abbbc", v.v.
+Dấu cộng cho biết một hoặc nhiều lần xuất hiện của phần tử trước. Ví dụ: ab + c khớp với "abc", "abbc", "abbbc", v.v., nhưng không phải là "ac".
{n}[1]Mục trước được khớp chính xác n lần.
{min,}[1]Mục trước được khớp tối thiểu hoặc nhiều lần hơn.
{min,max}[1]Mục trước được khớp ít nhất lần tối thiểu, nhưng không quá lần tối đa.
Ký tự đại diện

Các ký tự đại diện . phù hợp với bất kỳ nhân vật. Ví dụ: a.b khớp với bất kỳ chuỗi nào chứa "a", sau đó là bất kỳ ký tự nào khác và sau đó là "b", a.*b khớp với bất kỳ chuỗi nào có chứa "a" và "b" ở một điểm nào sau đó.

Các cấu trúc này có thể được kết hợp để tạo thành các biểu thức phức tạp tùy ý, giống như người ta có thể xây dựng các biểu thức tính toán từ các số và các phép toán +, -, × và:. Ví dụ, H(ae?|ä)ndelH(a|ae|ä)ndel đều là các mẫu hợp lệ khớp với các chuỗi giống như ví dụ trước đó, H(ä|ae?)ndel.

Cú pháp chính xác cho các biểu thức chính quy khác nhau giữa các công cụ và ngữ cảnh; chi tiết hơn được đưa ra trong phần Cú pháp.

Tài liệu tham khảo

WikiPedia: Biểu_thức_chính_quy http://www.hermann-gruber.com/data/icalp08.pdf http://msdn.microsoft.com/en-us/library/hs600312.a... http://msdn2.microsoft.com/en-us/library/ms974570.... http://java.sun.com/docs/books/tutorial/essential/... http://swtch.com/~rsc/regexp/regexp1.html http://drops.dagstuhl.de/opus/volltexte/2008/1354 http://regex.info/ http://www.laurikari.net/tre/ http://billposer.org/Linguistics/Computation/Resou... http://doc.cat-v.org/bell_labs/structural_regexps/